16 research outputs found

    Extracción de características espectrales y prosódicas para reconocimiento de emociones

    Get PDF
    En las últimas décadas, los sistemas automáticos de reconocimiento de patrones han ganado mucha importancia debido al interés de crear interacciones entre el hombre y la máquina lo más naturales posibles. Este trabajo fin de grado se centra en los sistemas automáticos de reconocimiento de emociones que, a partir de la voz de un hablante y usando técnicas de aprendizaje máquina, son capaces de reconocer el estado emocional del locutor. Este tipo de sistemas pueden ser muy útiles para mejorar la calidad de vida de las personas, especialmente para las que tienen algún tipo de discapacidad o incluso para mejorar investigaciones que están relacionadas con la emoción, como puede ser en el campo de la psicología o neurología. El objetivo de este trabajo es diseñar e implementar en Matlab un sistema de reconocimiento automático de emociones. Para ello, previamente se han estudiado las bases teóricas y así poder comprender cómo se relacionan las emociones con los aspectos físicos y acústicos de la voz. Se han investigado algunas técnicas de clasificación para decidir cuál se adapta mejor a los objetivos de este proyecto. El sistema desarrollado consta de dos etapas: parametrizador y clasificador. El primer módulo se encarga de la extracción de tanto características espectrales (coeficientes mel-cepstrales) como características prosódicas de la señal de voz (frecuencia fundamental, frecuencia del primer formante, parámetros de calidad acústica, duración). En la segunda etapa, se procede a la comparación de dichas características con los patrones de emociones obtenidos mediante un proceso de entrenamiento, a partir de una base de datos previamente etiquetada. Dicha comparación se realiza utilizando técnicas de clasificación basadas en máquinas de vector soporte. Para determinar las prestaciones del sistema, se han realizado una serie de experimentos considerando distintas características espectrales, prosódicas y su combinación. A la vista de los resultados, se ha podido concluir que las características espectrales extraídas a nivel de clase contienen una información más precisa sobre las emociones que las extraídas a nivel de expresión, y que la combinación de dichas características espectrales con las prosódicas producen los mejores resultados de reconocimiento.In recent decades, the automatic pattern recognition systems are gaining a lot of importance due to the interest of creating interactions between man and machine as natural as possible. This final project is focused on the automatic emotion recognition, which from the voice of a speaker and using machine learning techniques, is able to recognize the emotional state of the speaker. These types of systems can be very helpful to improve the quality of life of people, especially those with some kind of incapacity or even to enhance researches that are related with emotion, such as in the field of psychology or neurology. The object of this project is to design and implement automatic emotion recognition in Matlab. To do so, theoretic basis have previously been studied in order to understand how emotions relate to the physical and acoustic aspects of voice. Besides, some classification techniques have been treated in order to decide which one is the best to achieve the objectives of this project. The developed system consists of two stages: parameter assignment and classifier. The first module is responsible for the extraction of both spectral characteristics (mel-cepstral coefficients) as prosodic characteristics of the voice signal (fundamental frequency, of the first formant frequency, sound quality settings, duration). In the second stage, we compare these characteristics with emotion patterns obtained through a training process from a data base pre-labeled. This comparison is performed using classification techniques based on support vector machines. To determine the performance of the system, a number of experiments have been made considering different spectral and prosodic features and their combination. Regarding the results, it has been concluded that the spectral features extracted at class level contain more precise information about the emotions than the ones extracted at expression level, and that the combination of these spectral features with the prosodic ones produce the best recognition results.Ingeniería de Sistemas Audiovisuale

    Detección de actividad de voz basada en redes neuronales

    Full text link
    La Detección de Actividad de Voz (Voice Activity Detection, VAD) se refiere a un modelo de métodos de procesamiento de una señal de audio que detecta si pequeños segmentos de esta contienen datos de voz o de no voz. Los sistemas VAD juegan un papel importante previo al procesamiento de la señal en cualquier sistema de reconocimiento, codificación o mejora de voz, ya que suele ser necesario y beneficioso el hecho de diferenciar las partes habladas de las no habladas. Este Trabajo Fin de Grado tiene como objetivo principal explorar dos modelos distintos de redes neuronales para entrenar un sistema de Detección de Actividad de Voz. Se ha hecho una aproximación basada en una red neuronal profunda (Deep Neural Network, DNN) y en una red neuronal recurrente (Recurrent Neural Network, RNN), más específicamente una Long Short-Term Memory, LSTM. En ambos casos, los parámetros de entrada son las características acústicas MFCC (Mel-frequency Cepstral Coefficients). Se ha utilizado como herramienta principal para la implementación de ambas redes la librería de Python, Keras, la cual actúa por encima de Theano o Tensorflow. Para el análisis y la representación de datos obtenidos a la salida se ha hecho uso de Matlab. Los datos, tanto de entrenamiento como de validación y de test, utilizados para el análisis descrito se han tomado de la base de datos OpenSAT (Open Speech Analytic Technologies) desarrollada por el Instituto Nacional de Estándares y Tecnología (National Institute of Standards and Technologies, NIST). De esta base de datos se han tomado audios de vídeos de VAST (Video Annotation for Speech Technologies), audios de una operación de extinción de fuego de PSC (Public Safety Communications) y audios grabados de conversaciones telefónicas de IARPA Babel (Intelligence Advanced Research Projects Activity). La evaluación de la mejora que pueda suponer un modelo de red frente al otro se ha hecho en base a las medidas de accuracy y la Equal Error Rate, EER, obtenidas en cada experimento. Estos valores permiten comparar el rendimiento de las distintas configuraciones de modelos de VAD que se han implementado. Como conclusión resumida se ha obtenido un beneficio en el uso de la LSTM frente al uso de la DNN como se esperaba ya que la segunda es, en general, más adecuada para el modelado de señales temporales. Se ha demostrado también que en la tarea de VAD para el conjunto de datos utilizados funciona mejor un sistema LSTM en el que hay poca información de contexto en las secuencias de entrada, así como para el caso de las DNN, funciona mejor un modelo simple

    Correlación solo de fase limitada en banda y uso de coeficientes cepstrales inversos: aplicación en reconocimiento de voz y bioacústica

    Get PDF
    Digital signal processing is the application of mathematical operations to a piece of certain information. Because of its close relationship with other sciences, signal processing is the base of other science methodologies: automatic speech recognition and bioacoustics. Digital signal processing in this context is a solution tool. One of the most urgent problems is climate change. In this context, birds play a significant role where their identification and conservation are essential tasks. Even though automatic speech recognition provides specific solutions in bioacoustics, some of the traditional techniques fail in the capability of real field recognition. Since digital signal processing is a solution tool in a few contexts and bird species have acoustic patterns, it is possible to develop a new methodology in automatic speech recognition applied for recognition of species and individuals of birds (proposed efficiency over 70%). On the first phase of this research was to propose a new method for the speaker verification under limited data using the BLPOC function. After experiments, the BLPOC function confirmed to be an effective method. Taking these results into account, in the second phase a new technique for the individual identification of birds using the BLPOC function was proposed. The experiments confirmed that the BLPOC function is also an effective method for the individual identification of birds. Finally, in the same phase, another method for the automatic classification of species based on the IMFCC features was offered. Experiments conclude that the acoustic information of vocalizations in the high frequencies (captured by the IMFCC features) is as significant as the information in the low frequencies (captured by the traditional MFCC features).El procesamiento digital de señales consiste en la aplicación de distintas operaciones matemáticas a una cierta información bajo análisis. Debido a su estrecha relación con otras ciencias, el procesamiento de señales conforma la base de otras áreas de investigación como el reconocimiento automático de voz y la bioacústica. El procesamiento de señales en este contexto conforma una herramienta de solución para diversas problemáticas. Una de las que más relevancia tiene es el denominado: Cambio climático. En este contexto, las aves juegan un rol fundamental y por tanto la conservación e identificación de las especies de aves es de suma importancia. A pesar de que el reconocimiento de voz provee de soluciones para sistemas concretos en bioacústica, algunas de las técnicas utilizadas fallan en la capacidad de reconocimiento en ambientes naturales.Tomando en cuenta lo anterior, dado que el procesamiento de señales es una herramienta de solución en diversos contextos y tomando en cuenta que algunas especies de aves poseen patrones acústicos, entonces es posible el desarrollo de una nueva metodología en reconocimiento de voz que luego puede ser extrapolada como parte del diseño de un nuevo sistema de reconocimiento automático para la identificación de aves (para algunas especies específicas) e individuos, con una eficiencia de reconocimiento por encima del 70%. En la primera fase de investigación fue propuesto una adaptación de la función BLPOC (correlación solo de fase limitada en banda) para la verificación automática de hablantes con datos limitados. Luego de las pruebas, la función BLPOC mostró ser también un método efectivo para un sistema de verificación de hablantes bajo la condición de datos limitados. Tomando como base estos resultados, en la segunda fase se propuso una nueva técnica para la identificación individual de aves mediante la función BLPOC. De las pruebas de desempeño se puede concluir que este es un método eficiente para la identificación de individuos de especies. En esta segunda fase se propuso un método adicional de clasificación automática de especies de aves basado en la extracción de las características IMFCC (coeficientes cepstrales inversos en la frecuencia mel ) de las vocalizaciones. De los resultados obtenidos se concluye que la información acústica de las vocalizaciones de aves en las altas frecuencias (capturadas por los IMFCC’s) es tan significativa como la información acústica en las bajas frecuencias (capturadas por los MFCC´s) para la clasificación de aves a través de vocalizaciones

    Detección del trastorno específico del lenguaje en niños mediante el análisis acústico de sus voces

    Get PDF
    El síndrome específico del lenguaje, también conocido por sus siglas en inglés SLI (Specific Language Impairment), es un síndrome que se estima que afecta en torno al 7 u 8 por ciento de la población total de niños en el mundo. Este síndrome, se caracteriza por que aquel niño que lo sufre tiene dificultades en el aprendizaje del lenguaje sin tener ninguna otra deficiencia que pueda desembocar en problemas en el habla o lingüísticos. La problemática que existe en la actualidad para diagnosticar el SLI es que no se basa en medidas objetivas, sino que se diagnostica subjetivamente por parte de pediatras y pedagogos expertos en el tema. El objetivo de este trabajo es que se pueda crear un sistema basado en el aprendizaje máquina que sea capaz de determinar con la mayor probabilidad de acierto posible la existencia ono del SLI en niños mediante el análisis de sus voces. Este sistema se ha desarrollado a partir de una base de datos con audios de niños con y sin el síndrome específico del lenguaje. El sistema consta básicamente de dos etapas: extracción de características acústicas y clasificador. En la primera etapa, se extraen un conjunto de parámetros acústicos que representan las características más relevantes de la voz de cada niño. En concreto, se han utilizado los parámetros mel-cepstrales (Mel Frequency Cepstrum Coefficients, MFCC) y se han probado varias variantes, como la inclusión de la log-energía y de los parámetros delta-MFCC, los cuales son las derivadas de los parámetros MFCC y modelan su evolución temporal. La segunda etapa consiste en un clasificador binario basado en máquinas de vectores soporte (Support Vector Machine, SVM) con diferentes funciones Kernel. En cuanto a la parte experimental, se han realizado varios conjuntos de pruebas en distintas condiciones: dependencia e independencia de locutor, y audios limpios y contaminados con ruido. Para cuantificar el funcionamiento del sistema, se han utilizado las medidas de precisión, recall y F-score. El sistema ha obtenido altas prestaciones con habla limpia, tanto para el caso dependiente como independiente de locutor. Con respecto al habla ruidosa, como era de esperar, se observa una degradación del funcionamiento del sistema a bajas relaciones señal a ruido (Signal-to-Noise Ratio, SNR), especialmente para el caso independiente de locutor. No obstante, para SNRs medias y altas, se obtiene un F-score superior a 0.9 para el caso independiente de locutor y con la utilización de los parámetros MFCC y sus derivadas y el Kernel gaussiano.Specific Language Impairment (SLI) is a syndrome that is estimated to affect about 7 to 8 percent of the world's total child population. This syndrome is characterized by the fact that a child who suffers from it has difficulties in learning language without having any other impairment that could lead to problems in speech or language. The current problem in diagnosing SLI is that it is not based on objective measures, but is diagnosed subjectively by paediatricians and pedagogues who are experts in the subject. The aim of this work is to create develop a system based on machine learning techniques that is capable of determining with the greatest probability of success the existence or not of SLI in children through the analysis of their voices. This system has been developed from a database with audios of children with and without the specific language syndrome. It basically consists of two stages: extraction of acoustic characteristics and classifier. In the first stage, a set of acoustic parameters that represent the most relevant characteristics of each child's voice are extracted. Specifically, Mel Frequency Cepstrum Coefficients (MFCC) have been used and several variants have been tested, such as the inclusion of log-energy and delta-MFCC parameters, which are the derivatives of MFCCs and model their temporal evolution. The second stage consists of a binary classifier based on Support Vector Machines (SVM) with different Kernel functions. As for the experimental part, several sets of tests have been carried out under different conditions: dependence and independence of the speaker, and clean and noise-contaminated audios. In order to quantify the performance of the system, precision, recall and F-score measurements have been used. The system has obtained high performance with clean speech, both for the dependent and independent speaker cases. With respect to noisy speech, as was to be expected, a degradation of the functioning of the system at low signal-to-noise ratio (SNR) is observed, especially for the independent speaker case. However, for medium and high SNRs, an F-score higher than 0.9 is obtained for the independent speaker case and with the use of the MFCC parameters and their derivatives and the Gaussian kernel.Ingeniería de Sistemas Audiovisuale

    Estado del arte del reconocimiento de voz artificial

    Get PDF
    La siguiente monografía condensa información relevante que nos brinda un entendimiento de qué es y cómo se han ido desarrollando los sistemas de reconocimiento automático del habla (SRAH), los cuales se encargan de interpretar señales de audio emitidas por un usuario. Los múltiples avances matemáticos dentro del campo de la inteligencia artificial han permitido llevar a cabo reconocimientos con porcentajes de aciertos cada vez más altos. Técnicas como Bancos de Filtros, Codificación Predictiva Lineal, Modelos Ocultos de Markov, Redes Neuronales Artificiales y Lógica Difusa permiten que las señales de audio previamente procesadas sean clasificadas como palabras del lenguaje humano..

    Reconocimiento de emociones en la voz

    Get PDF
    El reconocimiento de emociones en el habla es un problema que puede abordarse desde distintos frentes. Por una parte, es necesario elegir un sistema de reconocimiento de emociones que se adapte a nuestras necesidades. Por otro lado, la elección de las características acústicas de las muestras de voz incluidas en el proceso, así como los métodos utilizados para la extracción de las mismas es otro de los puntos críticos del reconocimiento de emociones. La finalidad de este proyecto es la de obtener una serie de conclusiones con respecto a la utilización de distintos conjuntos de características acústicas en el proceso de reconocimiento de emociones. En este trabajo, una vez seleccionadas las características, así como las bases de datos a partir de cuyas muestras se obtienen dichas características, se han realizado un conjunto de experimentos a partir de cuya observación y comparación se han extraído una serie de conclusiones que podrían generar futuras líneas de investigación.Emotion recognition in speech is a nowadays problem which can be approached from two different perspectives. On one hand, it is necessary to choose an emotion recognition system which can give us the best possible results. On the other hand, the acoustic features which are going to be used are another important factor, just as important as the methods used to obtain these characteristics which are going to be used in the recognition process. The aim of this Project is to obtain a set of conclusions with respect to the use of a subset of different acoustic features in the emotion recognition process. In this work, once this subset of features and the two databases which are going to be used to extract them have been selected, a large number of experiments have been performed. From the achieved results, a set of conclusions which can lead to further research have been drawn.Ingeniería de Telecomunicació

    Medidas de inteligibilidad para predicción del grado de Parkinson

    Get PDF
    La comunicación ha sido un instinto básico en el desarrollo del hombre, las personas tendemos a interactuar con el medio, y, por tanto, con nuestros iguales, es por ello, que es imprescindible lograr un proceso comunicativo donde prime el entendimiento. Unos de los factores para conseguir un correcto entendimiento entre interlocutores a través de la comunicación oral, es la inteligibilidad del habla, que en ocasiones puede verse afectada a causa de la denominada disartria. A lo largo de esta memoria, se hablará de dicha disartria y de las implicaciones que tiene en personas con enfermedad de Parkinson. Es la segunda enfermedad más extendida después del Alzheimer, y por tanto, afecta a más de 300.000 personas tan solo en España. Cifra que irá aumentando debido al envejecimiento de la población. Con este Trabajo Fin de Grado, se pretende elaborar un predictor que sea capaz de estimar el grado de inteligibilidad de señales de voz. Se ha utilizado la base de datos “Universal Access” que contiene audios de diversos interlocutores con disartria y sus correspondientes etiquetas con el grado de inteligibilidad que se obtuvieron de forma subjetiva por una serie de evaluadores. La disartria se presenta como síntoma habitual en personas con Parkinson, por ello se ha elegido esta base de datos para el desarrollo y evaluación del sistema. El sistema predictor de inteligibilidad que se ha desarrollado consta de una serie de procesos como la extracción de las características acústicas o features, selección de características, regresión y evaluación de los resultados, entre otros. Tras insertar las señales por el predictor, se obtiene una salida concreta con la predicción del grado de inteligibilidad del paciente, que se evalúa en base a la correlación de Pearson y la raíz del error cuadrático medio. Se han realizado diferentes tipos de pruebas, comparadas con artículos relacionados o de forma independiente. En todas ellas, los resultados han presentado un alto grado de aproximación, alcanzando los objetivos planteados en el proyecto.Communication has been a basic instinct in the development of human, people tend to interact with the environment, and therefore with our peers, that is why it is essential to achieve a communicative process where the understanding prevails. One of the factors to achieve a correct understanding between interlocutors through oral communication is speech intelligibility, which can sometimes be affected by the so-called dysarthria. Throughout this report, we will discuss such dysarthria and the implications it has on people with Parkinson's disease. It is the second most widespread disease after Alzheimer's disease, and therefore affects more than 300,000 people just in Spain. This figure will increase due to the aging of the population. With this Final Degree Project, we pretend to elaborate a predictor that is capable of estimating the degree of intelligibility of speech signals. We have used the “Universal Access” database that contains audios of several speakers with dysarthria and their corresponding labels with the intelligibility score that were subjectively obtained by a set of evaluators. Dysarthria presents as a common symptom in people with Parkinson's disease, so this database has been chosen for the development and assessment of the system. The intelligibility prediction system that has been developed consists of several processes as the extraction of acoustic characteristics or features, feature selection, regression and results evaluation, among others. After feeding the signals into the predictor, we obtain an output with the prediction of the intelligibility degree of the patient, which is evaluated according to the Pearson correlation and the root mean square error. Different types of tests have been performed, compared to related papers or independently. In all of them, the results have presented a high degree of approximation, achieving the objectives of the project.Ingeniería de Sistemas de Comunicacione

    Detección de estrés en señales de voz

    Get PDF
    El estrés se ha convertido en uno de los factores más importantes para aquellas profesiones en las que la toma rápida de decisiones bajo situaciones de presión es la tarea principal. Igualmente, el estrés es el causante de una de las fobias más comunes entre los adultos: la glosofobia o el miedo a hablar en público. La necesidad de controlar estas situaciones de tensión ha desembocado en el estudio de reconocimiento de emociones y estrés. Sin embargo, en los últimos años, las investigaciones para detectar estrés a partir de la voz se han realizado, de forma general, en entornos de laboratorio de los que se extraen conclusiones limitadas a la hora de analizar eventos de estrés reales. En nuestro proyecto, utilizaremos una base de datos de estudiantes que realizan discursos en público mientras se les toman medidas sobre su ritmo cardíaco. Realizaremos la extracción de un set básico de características de la voz y generaremos etiquetas basadas estas medidas biométricas con el fin de realizar una detección entre estrés y no estrés lo más precisa posible. Con el fin de conseguir esta precisión, se realizará una extracción de características a diferentes niveles de análisis; las etiquetas se basarán en distintos umbrales de decisión y, por último, se diseñarán diversos clasificadores, dando lugar a un porcentaje de acierto, en cualquiera de las combinaciones, superior al 80 %.Emotional stress has become one of the most important factors for those jobs where the main task is making quick decisions under pressure. In addition, stress is the cause of one of the most common phobias among adults: glossophobia or the fear of public speaking. The need to control these situations of tension has developed the study of emotions and stress recognition. However, in recent years, researches about stress detection from speech has been done, in general, in laboratory environments. These improvements are limited when analyzing real stress events. In our project, we will use a database of students who make a speech in public while measurements of their heart rate are taken. We will perform the extraction of a basic set of features from speech signals and generate labels based on these biometric measurements in order to perform a detection between stress and non-stress as accurate as possible. In order to achieve this precision, the feature extraction will be performed at different analysis levels; labels will be based on different decision thresholds and, finally, different classifiers will be designed, giving a score, for any of the combinations, greater than 80 %.Ingeniería en Tecnologías de Telecomunicació

    Sistema de reconocimiento de emociones a través de la voz, mediante técnicas de aprendizaje profundo

    Get PDF
    Diseñar un sistema de Reconocimiento de Emociones de Voz (REV) mediante técnicas de aprendizaje profundo para la ayuda en el diagnostico de depresión en pacientes que acuden al psicólogo.Este proyecto de grado se centra en la creación de un "Sistema de Reconocimiento de Emociones a través de la Voz, utilizando Técnicas de Aprendizaje Profundo". Se basa en la Inteligencia Artificial, en particular en el Aprendizaje Supervisado con Redes Neuronales Artificiales, que pueden ser utilizadas para predecir emociones. La necesidad de un sistema de este tipo surge de su potencial uso en psicología para ayudar a detectar patologías de depresión. Para alcanzar los objetivos predeterminados se empleará una metodología en cascada.Ingenierí

    Puesta en marcha de un entorno de experimentación para reconocimiento de habla en cabinas de avión

    Get PDF
    Este proyecto afronta el tema del reconocimiento automático de habla en el escenario de las cabinas de avión. Se trata de un escenario en el cual nos enfrentamos a problemas tales como distintos tipos de ruido (ruido del propio avión, ruido conversacional o ruido de reverberación) así como variabilidad en la lengua nativa de los propios hablantes. En este caso, hemos puesto especial énfasis en buscar soluciones al problema del ruido por reverberación. Para realizar la investigación se ha realizado la puesta en marcha de un entorno de experimentación haciendo uso de la base de datos HIWIRE sobre el que hemos probado técnicas básicas orientadas a la mejora del reconocimiento en este entorno, en particular hemos probado algunas técnicas simples como la normalización en media y varianza y otras mas complejas como la substracción espectral la cual combinaremos también con un VAD. ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------This project deals with the task of automatic speech recognition (ASR) in aeronautic environments such as airplane's cockpits. Cockpits are scenarios in which we face problems like different kinds of noise (engine noise, conversational noise or reverberant noise) or a high variability due to non-native speakers. In our case we have made an special effort in searching solutions to overcome the problems of reverberant noise. In order to carry on with this investigation we have created an environment of investigation based on the HIWIRE database over which we have tested basic techniques focused on improving ASR performance. More specifically, we have tested basic techniques like mean and variance normalization and some others more complex tike spectral substraction later on combined with VAD.Ingeniería de Telecomunicació
    corecore